iT邦幫忙

第 12 屆 iThome 鐵人賽

DAY 1
0
自我挑戰組

女力媽媽的Data白話文系列 第 1

STEP1 : 爬蟲首要認知

  • 分享至 

  • xImage
  •  

網路爬蟲、網頁抓取

簡單的說法就是從網頁中,抓取自己感興趣的區塊資料,進一步的清理資料,整理成可視性的圖表做解讀。

一般來說
  1. 打開一個網頁
  2. 輸入網址列
  3. 按下ENTER鍵
  4. 即可達到想瀏覽的網頁端

這樣看似一個動作,電腦的背後其實與伺服器做了無數個連線,進而呈現在瀏覽器端的完整頁面。

瀏覽器、伺服器、連線...等等,這些專有名詞聽不懂沒關係,我們換個方式來說說看。

想像成,
我們撥打了一通電話給 YAHOO!電影 的公司,想知道本周的新片?
電影公司內部可能會立刻請
影像部的同仁,將本周新片的電影海報 彙整後打通電話回報給您
文字編輯部的同仁,將本周新片的內容大綱 彙整後打通電話回報給您
社群小編的同仁,將本周新片的網友期待度 彙整後打通電話回報給您
...
匯集了各個部門的資料,
也就成了我們現在在網頁上看到的圖文並茂排版下的頁面

https://ithelp.ithome.com.tw/upload/images/20200911/201227781MjvKMLKHw.png

瀏覽器 就想成 這台電腦打開的這個 網頁
伺服器 就想成 YAHOO!電影 這間公司
無數個連線 就想成必須分別向 各個部門 要資料

所以一個網頁是由多個區塊資料拼湊下組合而成,若我們只想抓取某部分的資料,
我們就必須要知道,感興趣的這區塊資料是由哪個部門將資料蒐集而成的。

所以當我只想知道本周新片的網友期待度評價時,
只要找到YAHOO!電影公司的社群小編部門的電話連線,就可以得到自己感興趣的這區塊資料了。

結語

爬蟲就是從網頁中的眾多連線中,找到那一條存放著自己感興趣資料的那一條連線。


系列文
女力媽媽的Data白話文1
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言